Una aproximación al uso de word embeddings en una tarea de similitud de textos en español

نویسندگان

Tomás López-Solaz

José Antonio Troyano Jiménez

F. Javier Ortega

Fernando Enríquez de Salamanca Ros

چکیده

In this paper we show how a vector representation of words based on word embeddings can help to improve the results in tasks focused on the semantic similarity of texts. Thus we have experimented with two methods that rely on the vector representation of words to calculate the degree of similarity of two texts, one based on the aggregation of vectors and the other one based on the calculation of alignments. The alignment method relies on the similarity of word vectors to determine the semantic link between them. The aggregation method allows us to construct vector representations of the texts from the individual vectors of each word. These representations are compared by means of two classic distance measures: Euclidean distance and cosine similarity. We have evaluated our systems with the corpus based on Wikipedia distributed in the competition of similarity of texts in Spanish of SemEval-2015. Our experiments show that the method based on the alignment of words performs much better, obtaining results that are very close to the best system at SemEval. The method based on vector representations of texts behaves substantially worse. However, this second approach seems to capture aspects of similarity not detected by the first one, as when the outputs of both systems are combined the results of the alignment method are surpassed, even exceeding the results of the best system at SemEval.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Utilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras

La desambiguación del significado de las palabras se ha desarrollado como una subárea del Procesamiento del Lenguaje Natural (PLN), donde el objetivo es determinar el sentido correcto de aquellas palabras que tienen más de un significado, no es una tarea final en sí misma, sino una tarea intermedia necesaria en variadas aplicaciones del procesamiento del lenguaje natural. La resolución de la am...

متن کامل

Desarrollo de un sistema para medir similitud entre clases

Resumen. El incremento continuo de información en formato digital obliga a contar con nuevos métodos y técnicas para acceder, recopilar y organizar estos volúmenes de información textual. Una de las técnicas más utilizadas para organizar dicha información es la clasificación de documentos. Los sistemas de clasificación automática de textos tienen una baja eficiencia cuando las clases son muy pa...

متن کامل

Impacto de la ironía en la minería de opiniones basada en un Léxico Afectivo

En este art́ıculo se describe un método sistemático que identifica la polaridad de textos en Español, aśı como el impacto de la irońıa en la mineŕıa de opiniones. Se propone una aproximación basada en un aprendizaje automático y en la extracción de caracteŕısticas a partir de un Léxico Afectivo en Español. Fue necesaria la creación de un corpus para el entrenamiento y evaluación del método propu...

متن کامل

Herramienta de apoyo en la detección de reutilización de código fuente

Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...

متن کامل

Estructuración del Conocimiento para la Iterpretación de Textos y su Aplicación al Disseño de Esquemas Conceptuales de Bases de Datos

El desarrollo de sistemas genéricos para tratamiento automático del lenguaje está limitado por la imposibilidad de tener disponible todo el conocimiento requerido para cualquier dominio de aplicación. Por ello, la solución propuesta en este trabajo se basa en el desarrollo de un sistema modular y multiforme que permita la incorporación de los distintos tipos de conocimiento lingüístico y extral...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

Procesamiento del Lenguaje Natural

دوره 57 شماره

صفحات -

تاریخ انتشار 2016

Una aproximación al uso de word embeddings en una tarea de similitud de textos en español

نویسندگان

چکیده

منابع مشابه

Utilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras

Desarrollo de un sistema para medir similitud entre clases

Impacto de la ironía en la minería de opiniones basada en un Léxico Afectivo

Herramienta de apoyo en la detección de reutilización de código fuente

Estructuración del Conocimiento para la Iterpretación de Textos y su Aplicación al Disseño de Esquemas Conceptuales de Bases de Datos

عنوان ژورنال:

اشتراک گذاری